iT邦幫忙

2023 iThome 鐵人賽

DAY 3
2

從昨天的監督式學習中,可以了解到,若要拿資料訓練一個模型,那我就不能只有輸入資料,還要有相對應的答案(標籤)才行,但問題來了,
→ 不是大家隨隨便便標記的結果都可以當作標準答案,而是經過普羅大眾都認同的專家來做標記,才能讓這堆資料具有可信度
→ 為了找專家來標記,所要付出的成本與人力投入是高昂的,更不用說當資料集很龐大時,大量資料進行標註所要消耗的時間成本

那能不能只讓專家標記一些,然後就把其他剩下沒有標記的資料拿來使用呢?
/images/emoticon/emoticon13.gif
答案是肯定的!


所以來到本日主題...

半監督式學習(Semi-supervised learning)

在訓練一個模型時,會有兩種資料集,一種是做為訓練集的有標記資料,另一種則是未經標記的資料,
通常未標記的資料量會遠遠超過已標記資料的數量(因為蒐集未標記資料的成本比蒐集已標記資料要低得多),
而半監督式學習的目標跟監督式學習是完全相同的,差別就只在資料集中有部分資料是缺乏標記的

而根據如何使用這些未標記資料,又可分成兩種學習:

Transductive learning

在這種方法中,我們將未標記的資料同時視為訓練集(使用資料的特徵)和測試集,也就是說,在訓練模型的時候,會拿所有資料進行訓練,然後預測那些未標記資料

Inductive learning

將未標記的資料視為訓練集,但不使用它們來進行測試


以下是圖解:
https://ithelp.ithome.com.tw/upload/images/20230918/201559153yO2rWh0Z4.png


半監督式學習的基本假設

為什麼能夠利用未標記的資料呢?這裡存在著三個基本假設,解釋了半監督學習的基本原理:
1. Smoothness Assumption
假設資料集的分布並不均勻,則在資料密集的區域,兩個距離很近的資料點會有很大機率具有相同的標籤
2. Cluster Assumption
假設資料集具有固定的群集(cluster)結構,也就是存在著可以明確劃分的資料群集,則屬於同一群集的資料點應當會具有相同的標籤
3. Manifold Assumption
假設將資料集嵌入到低維度的流形(manifold)空間中,則當兩個資料點位於低維流形中的一個小區域內時,它們很可能具有相似的標籤


結語

通常,半監督式學習的效果會優於監督式學習,因為它可以充分利用未標記資料,來降低模型的誤判,然後提高整體的性能,比較符合現實使用的場景。


今天的收尾好難...😢


上一篇
模型學習方式 D1 - 監督式學習
下一篇
模型學習方式 D3 - 非監督式學習
系列文
初次抓舉AI的世界30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言